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UWAGI WSTĘPNE 


Analiza kanoniczna stanowi jeden z elementów wielowymiarowej ana- 
lizy statystycznej. Ogólnie można stwierdzić, że polega ona na badaniu 
związku pomiędzy dwoma układami (wektorami) zmiennych, przy czym 
jeden układ tworzą zmienne objaśniane, a drugi — zmienne objaśniające. 
Wynika z tego, że analizę kanoniczną można traktować jako uogólnienie 
regresji wielokrotnej, w której zmienność zmiennej objaśnianej można 
wyjaśnić zmiennością zespołu zmiennych objaśniających. 

Pojęcie zmiennych kanonicznych i korelacji kanonicznej wprowadził 
do literatury statystyczno-ekonometrycznej H. Hotelling w r. 1936, a sze- 
rokie podstawy teorii korelacji kanonicznej dał T. W. Anderson w r. 1958.! 
Problem ten omówiony jest również przez wielu autorów (przede wszyst- 
kim zachodnich) w pracach dotyczących wielowymiarowej analizy sta- 
tystycznej. Autorzy, do których między innymi należą: Cooley, Lohnes, 
Harris, Kendall, Stuart i Rao podali nie tylko teoretyczne aspekty kore- 
lacji kanonicznej, ale również praktyczne jej zastosowania. Główne dzie- 


1 Т. W. Anderson: An Introduction to Multivariate Statistical Analysis, 
Wiley, New York 1958, s. 288—306. 
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dziny dotychczasowych zastosowań analizy kanonicznej to: psychologia, 
geografia, antropologia, botanika, nauki rolnicze i ekonomiczne. 2 

Zainteresowanie w naszym kraju analizą kanoniczną i jej wykorzy- 
staniem do badań empirycznych datuje się od drugiej połowy lat siedem- 
dziesiątych. Teoria tej problematyki omówiona jest między innymi w 
opracowaniach A. Krzyśki3 i M. Nowosadzkiego, natomiast wyniki prak- 
tycznych zastosowań zawarte są w pracach В. Głębockiego 4, 5. Мејғу $ 
i W. Ratajczaka 5, dotyczących badań produkcji rolniczej, zootechnicz- 
nych i w geografii ekonomicznej. W pracach tych zastosowanie analizy 
kanonicznej pozwoliło zbadać związki pomiędzy zmiennymi mierzącymi 
poziom urbanizacji a zmiennymi mierzącymi poziom uprzemysłowienia 
w układzie gmin województwa poznańskiego, jak również współzależ- 
ności pomiędzy rozwojem ekonomicznym, środowiskiem geograficznym 
i kształtem powiatów województwa poznańskiego a rozwojem ich sieci 
drogowej i kolejowej. 

Niniejsze opracowanie nie opiera się na badaniach empirycznych. Ma 
ono charakter teoretyczny. Celem tego opracowania jest przedstawienie 
możliwości wykorzystania korelacji kanonicznej do wyboru optymalnego 
zbioru zmiennych objaśniających do modelu ekonometrycznego. 

Możliwość zastosowania korelacji kanonicznej do wyboru zmiennych 
objaśniających do modelu ekonometrycznego w początkowej fazie jego 
budowy zaproponował J. Greń 7, Podał on ogólną ideę tej metody w wy- 
mienionym aspekcie. W niniejszym opracowaniu — poza przypomnie- 
niem propozycji J. Grenia — przedstawiono dalsze uwagi dotyczące 
uzyskania ostatecznego rozwiązania, tzn. ustalenia zbioru zmiennych ob- 
jaśniających do modelu ekonometrycznego. 

Załóżmy, że dysponujemy dużym zbiorem potencjalnych zmiennych, 
które można by użyć w modelu jako zmienne objaśniające. Nie chcemy 
jednak wprowadzać do modelu wszystkich zmiennych potencjalnych (zda- 


2 M. Nowosadzki: Analiza kanoniczna $ analiza redundacji, Piąte Collo- 
quium Metodologiczne z Agro-biometrii, Warszawa 1975, s. 230—252. 

3 M. Krzyśko: Analiza zmiennych kanonicznych i korelacji kanonicznych 
(w:] Analiza regresji w geografii, pr. zb. pod red. Z. Chojnickiego, PAN, Warsza- 
wa—Poznań 1980, s. 55—68. 

4 B. Głębocki: Czynniki kształtujące przestrzenną strukturę produkcyjną 
rolnictwa, Uniwersytet im. A. Mickiewicza, Poznań 1979. 

5 5. Mejza: Korelacje kanoniczne i ich zastosowania w badaniach rolni- 
czych, Piąte Colloquium Metodologiczne z Арго-Віотеігіі, РАМ, 1975, s. 254—274. 

6 W. Ratajczak: Zastosowanie analizy kanonicznej w badaniach geogra- 
ficznych, pr. zbiorowa pod red. Z. Chojnickiego nt. „Analiza regresji w geografii”, 
РАМ, Warszawa—Poznań, 1980, s. 69—81. 

7 Propozycja ta została zgłoszona na seminarium naukowym poświęconym 
problemowi doboru zmiennych do modelu, które odbyło się w Zakopanem w kwiet- 
niu 1979 r. 
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rza się, że nadmierna liczba zmiennych objaśniających występująca w 
modelu poza kłopotami natury numerycznej utrudnia merytoryczne zin- 
terpretowanie uzyskanych wyników). Musimy więc dokonać wyboru 
zmiennych spośród wszystkich kandydatek. 

Zbiór zmiennych oznaczmy przez X, natomiast zbiór zmiennych, które 
ostatecznie wejdą do modelu przez XA, а zbiór zmiennych pominiętych — 
przez ув. Zmienne ze zbioru xa będziemy nazywać zmiennymi aktywny- 
mi, zaś zmienne ze zbioru ув — zmiennymi biernymi. Na tej podstawie 
zbiór zmiennych potencjalnych można zapisać jako sumę podzbiorów 
XA i Хв, Czyli: 

X XA" Хв 
gdzie: xa= |X, іЄА |, yn= |Х, ЕВ}. 

Problem więc sprowadza się do odpowiedniego podziału zbioru у na 
podzbiory XA i Xs. Podział ten powinien być jednak tak dokonany, aby 
wybrane zmienne do modelu najlepiej wyjaśniały zmienność zmiennej 
objaśnianej. Co więcej — ze względu na brak dokładnego rozeznania, 
które ze zmiennych zbioru x bezwzględnie powinny w modelu wystąpić — 
nie chcemy całkowicie rezygnować z wpływu zmiennych pomijanych. 
Wymagamy więc, aby zmienne podzbioru XA, poza informacjami, jakie 
same wnoszą do modelu, reprezentowały również informacje pochodzące 
od zmiennych pomijanych. Wydaje się, że odpowiedniego podziału zbioru 
у na podzbiory xa і Хв można dokonać przez wykorzystanie teorii kore- 
lacji kanonicznej. 


KORELACJA KANONICZNA 


Rozważmy wektor x zmiennych о itj składowych oraz podwektory 
хА= [xi] 1 хв= [х] Utwórzmy dwie zmienne sztuczne ид i VB, będące 
kombinacjami liniowymi elementów wektorów хд i Xp, co można zapisać 
następująco: 


ИА = 5 qi Xi = CEN 
r% (2.1) 


VB в hj xj = hl x 
gdzie: а= [91], h=[h;] — współczynniki powyższych kombinacji liniowych 
będą tak dobrane, aby współczynnik korelacji pomiędzy zmiennymi чл 
i Vp był maksymalny. 

Dła uzyskania jednoznacznych rozwiązań numerycznych wprowadza 
się dodatkowy warunek, a mianowicie taki, żeby współczynniki qı 1 hy 
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były tak dobrane, aby wariancje ZAIĘDDYCH МА i Ув równały się jedności, 
czyli: 


Dź(ua)=l1 i Dź(vg)=1 (2.2) 


Współczynnik korelacji pomiędzy zmiennymi ua i Vs oznaczony przez 
QUAVB Można wtedy wyrazić następująco: 
KW в) 
= —— = = сони 


p 
ЧА УВ M D? (u, )D? (v 


OME (2.3) 
B) 

Zdefiniowane wzorem (2.1) zmienne ид і ув nazywamy zmiennymi 
kanonicznymi, a współczynnik korelacji pomiędzy tymi zmiennymi okreś- 
lony wzorem (2.3) nazywamy współczynnikiem korelacji kanonicznej. 
Współczynnik ten mierzy siłę związku pomiędzy zmiennymi kanonicz- 
nymi. Maksymalizując go chcemy zapewnić sobie wprowadzenie do mo- 
delu informacji nie tylko reprezentowanych przez zmienne, które zostaną 
w modelu uwzględnione, ale również — przez silne skorelowanie ich 
ze zmiennymi pomijanymi — informacje pochodzące od zmiennych nie 
uwzględnionych w modelu. Współczynnik ридув jest bowiem kryterium 
wyboru odpowiedniego podziału zbioru X na podzbiory XA i YB, umożli- 
wiającym ustalenie listy zmiehnych objaśniających, które powinny wy- 
stąpić w modelu. Dokładniej problem wyboru omówiono w punkcie 3 ni- 
niejszego opracowania. 

Obecnie przedstawimy proces wyznaczania maksymalnego współczyn- 
nika korelacji kanonicznej dla jednego z m możliwych podziałów zbio- 
ru y na podzbiory ХА i Хв. 

Jeżeli dysponujemy macierzą x obserwacji na zmiennych potencjal- 
nych i r-tym podziałem tej macierzy na bloki хА i xp oraz wektorami 
zmiennych kanonicznych tego podziału, to za Theilem możemy podać, 2е 8: 


р? u = uf ap = = 9! xI XA 1 
М (2.4) 
тут > 
DRO) = p эр = ZĘ Xah, = I 
Natomiast współczynnik korelacji kanonicznej można zapisać nastę- 
pująco: | 
_— ою у) = gTXTX h. 25 
Ру) у) "NAS B TROA B (2.5) 


Aby otrzymać maksymalny współczynnik Рид T ув należy zmaksy- 


malizować prawą stronę wyrażenia (2.5) przy warunkach (2.4). Problem 


s H. Theil: Zasady ekonometrii, PAN, Warszawa 1979, s. 323. 
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ten — jak wiadomo — jest poszukiwaniem maksimum warunkowego 
funkcji Lagrange'a, która w naszym wypadku przyjmuje następującą 
postać: 

1 ` 1 А z | 4 
= al yT тут z m, T yT = 
(аһ) =ч, ХАХЬћ, — zA(a, ХАХА, 1) geh, Xg Xh, — 1) (20) 

gdzie: А і u są mnożnikami Lagrange'a. 
Obliczając pochodne cząstkowe funkcji (2.6) względem wektorów q; 
ih, i przyrównując je do wektora zerowego otrzymujemy: 


дЕ 
AE XT Xah, —AXĄX,q, = 0 
q 
2 (2.7) 
дЕ т T Є 
ЭЕ = X5X,q, иһ. o 
Wykorzystując (2.4) i (2.7), można wykazać, że: 
\ = џр = (г) (1) . 
H Рал у, (2.8) 


Z kolei wykorzystując (2.7) i (2.8) i dokonując odpowiednich prze- 
kształceń, otrzymujemy dwa równania o następującej postaci: 


ХГХ ХІХ ХВ ХХ, — р (DOI = o 
| | SSE (2.9) 


o. 


XTX yi XIX, (XTX у!ХЇХ, — p? (r), (I 
[( B в) B А ( A А) А В буу, 


Jak wynika z (2.9) о? ua (т) ув(Г) jest wartością własną odpowiednich 
macierzy — wartością, której pierwiastek jest współczynnikiem kore- 
lacji kanonicznej. Natomiast q, i h, są wektorami własnymi tych samych, 
odpowiednich macierzy. Aby więc uzyskać największy współczynnik ko- 
relacji kanonicznej, wybieramy największy pierwiastek wielomianu cha- 
rakterystycznego, występującego w równaniu charakterystycznym, które 
jest wyznacznikiem (2.9) porównanym do zera. Największemu pierwiast- 
kowi przyporządkowane będą odpowiednie wektory spełniające waru- 
nek (2.2). 


PROCEDURA ZASTOSOWANIA KORELACJI KANONICZNEJ 
DO WYBORU ZMIENNYCH OBJAŚNIAJĄCYCH 


Cały proces wykorzystania analizy kanonicznej do wyboru zmiennych 
objaśniających można przedstawić w postaci poniższego schematu blo- 
kowego. Schemat ten przedstawia kolejność czynności zmierzających do 
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wyboru ostatecznego, optymalnego podziału zbioru y na podzbiory xa 
i Хв. 

Jak wynika ze schematu przedstawionego na rycinie, poszukiwanie 
maksymalnego współczynnika korelacji kanonicznej przebiega przez 
wszystkie г < т podziałów zbioru у na odpowiednie podzbiory xa і Хв. 
Należy jednak podkreślić, że interesują nas tylko te podziały, które za- 
pewniają co najmniej dwuelementowe podzbiory %a i ув. Takie bowiem 
podzbiory umożliwiają konstrukcję zmiennych kanonicznych. 


START 


Określenie zbioru Ж 


Określenie m podziafów, 
zbioru Œ na odpowiednie 
podzbiory £a i Eg 


Konstrukcja zmiennych kano- 


| г) ри) 
nicznych 4 ' УВ 


Prezentacja optymal- 
nego podziału zbio- 
ru % 


Konstrukcja współczynnika ko- 


reiacji kanonicznej Pu (r) 47) $ТОР 


Maksymalizacja тб, La- 
rangea dla Q,(r)„(r 
PRA 


Schemat blokowy wykorzystania analizy kanonicznej do wyboru zmiennych objaś- 
niających 

Block scheme of the application of canonical analysis to the selection of explanatory 
variables 
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Ostateczny wybór optymalnego podziału rozważanego zbioru nastę- 
puje po zbadaniu maksymalnych współczynników korelacji kanonicznej 
dla m podziałów. Traktując bowiem współczynnik korelacji kanonicznej 
jako kryterium wyboru optymalnego podziału zbioru x na podzbiory XA 
i Xs, wybieramy ze wszystkich m maksymalnych współczynników kore- 
lacji ten, który jest największy. Kryterium to możemy zapisać nastę- 
pująco: 


Ри у = max (max р ) = max р! 
АВ АВ ва МА YB A,B ЧАУВ 
| 3.1) 
ię Pu, у = тахр ( 
gdzie: А 'В q,h мА УВ 


Wydaje się, że powyższe kryterium maksymalnego współczynnika 
korelacji kanonicznej może zapewnić wybór optymalnego (najlepszego) 
podziału zbioru zmiennych potencjalnych na podzbiór zmiennych aktyw- 
nych i podzbiór zmiennych biernych. Należy sądzić, że zmienne osta- 
tecznie wprowadzone do modelu w myśl kryterium (3.1) dobrze objaśniać 
będą zmienną objaśnianą i dobrze zastępować zmienne pominięte. Taki 
sposób podejścia może pozwolić na zredukowanie dużej liczby zmiennych 
potencjalnych do zbioru zmiennych aktywnych, zachowując jednocześnie 
— przez wprowadzenie analizy kanonicznej — oddziaływanie zmiennych 
biernych. Trzeba jednak zdawać sobie sprawę z faktu, że strona rachun- 
kowa dojścia do ostatecznego rozwiązania jest czasochłonna i skompli- 
kowana. Zbadanie maksimum funkcji (2.6) dla „wszystkich m podziałów 
dużego zbioru x zmusza do korzystania z techniki komputerowej. Po- 
nadto wymaga również znajomości odpowiednich programów obliczenio- 
wych. Powyższy fakt sprawia, że analiza kanoniczna budzi pewne kon- 
trowersje. Należy jednak zaznaczyć, że obecny poziom techniki kompu- 
terowej jest taki, że nawet czasochłonne i skomplikowane numerycznie 
zadania mogą być zadowalająco rozwiązane, o czym świadczą cytowane 
w tym opracowaniu publikacje. 


РЕЗЮМЕ 


В статье представлена возможность применения канонической корреляции 
для выбора объяснимых переменных в эконометрической модели. Вступительная 
часть работы посвящена общим принципам деления большого множества IO- 
тенциальных переменных на подмножество переменных, входящих в модель, 
и на подмножество пропущенных переменных. 

Вторая часть работы посвящена критерию выбора соответствующего деления 
множества потенциальных переменных. Таким критерием есть максимальный 
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коэффициент канонической корреляции между двумя каноническими перемен- 
ными, из которых одна является линейной комбинацией переменных, принятых 
во внимание в модели, а другая — линейной комбинацией пропущенных пе- 
ременных. Нам кажется, что максимализируя коэффициент канонической кор- 
реляции между этими переменными, можно будет произвести такой выбор по- 
тенциальных переменных, при котором введенные в модель переменные будут 
хорошо объяснять объяснимые переменные. Больше того — если мы их сильно 
скоррелируем с пропущенными переменными, то они будут учитывать инфор- 
мацию, содержащуюся в переменных, не учтенных в модели. 

В третьей части статьи представлена целая процедура получения оконча- 
тельного, оптимального деления множества потенциальных переменных на мно- 
жество переменных, введенных в модель, и на множество пропущенных пере- 
менпых. Следует, однако, добавить, что процедура максимализации коэффициента 
канонической корреляции, являющегося критерием выбора, должна охватывать 
все соответствующие деления множества потенциальных переменных. Этот про- 
цесс сложен в нумерическом отношении, он требует использования компьютор- 
ной вычислительной техники. 


SUMMARY 


The article presents a possibility of applying canonical correlation to the selec- 
tion of explanatory variables for an econometric model. The introductory section 
deals with the general principles of the division of a large set of potential variables 
into a subset of variables included in the model and a subset of variables omitted. 

The second part concerns the selection criterion for an appropriate division 
of the potential variables set. This criterion is provided by the maximum coeffi- 
cient of canonical correlation between two canonical variables, of which one is 
a linear combination of variables included in the model, while the other is a linear 
combination of variables omitted. It seems that the maximization of the canonical 
correlation coefficient between these variables may ensure the selection of such 
a division of the potential variables set that the variables introduced into the 
model will interpret well the variable explained. Moreover, by their strong correla- 
tion with the variables omitted, they will take into account the information contain- 
ed in variables not included in the model. 

The third part of the articie presents the whole procedure of reaching the 
final, optimal division of the potential variables set into the set of variables intro- 
duced into the model and the set of variables omitted. However, it should be 
added that the procedure of the maximization of the canonical correlation coeffi- 
cient, which is the selection criterion, must cover all the appropriate divisions 
of the potential variables set. It is a process numerically complex and requires 
the application of computer calculation techniques. 


